Huqariq语料库是秘鲁本地语言的多语言集合。转录后的语料库旨在研究和开发语音技术,以保护秘鲁的濒危语言。Huqariq主要设计用于开发自动语音识别,语言识别和文本到语音工具。为了可持续获得语料库收集,我们采用众包方法。Huqariq包括秘鲁的四种母语,预计到2022年底,秘鲁的48种母语中最多可以达到20种母语。该语料库有500多名志愿者记录的220个小时的转录音频,使其成为秘鲁母语最大的语料库。为了验证语料库的质量,我们使用220小时的完全转录音频提出语音识别实验。
translated by 谷歌翻译